Actualité

IA vs médias : Près d’un tiers des plus grands sites d’information ont empêché les robots d’IA d’accéder à leur contenu!

Après le lancement du ChatGPT en novembre dernier, les entreprises et les consommateurs du monde entier ont commencé à utiliser l’intelligence artificielle générative (IA) pour automatiser des tâches, rédiger des documents, faire des études de marché ou même du codage de base. Toutefois, l’essor des grands modèles de langage et de l’IA générative a également mis en lumière le problème des sites d’information, des éditeurs et des détenteurs de droits de propriété intellectuelle qui voient leurs données collectées par des robots d’indexation de l’IA. Alors qu’il n’existe pas encore de règles réglementaires claires régissant l’utilisation par l’IA de contenus protégés par le droit d’auteur, certains des plus grands sites d’information du monde ont pris les choses en main.

Selon les données présentées par AltIndex.com, près d’un tiers des 50 plus grands sites d’information au monde ont bloqué l’accès à leur contenu aux robots d’exploration de l’IA, et leur nombre ne cesse d’augmenter.

La raison de ce blocage ? 
Les entreprises spécialisées dans l’IA envoient des crawlers pour collecter des données afin d’entraîner leurs modèles et de fournir des informations aux chatbots. Toutefois, comme les données constituent l’un de leurs principaux avantages, bon nombre des plus grands sites d’information du monde sont devenus extrêmement prudents, d’autant plus qu’il n’y a généralement aucun avantage à confier ses données à des robots d’IA.

La situation a dégénéré le mois dernier, après qu’OpenAI a lancé son robot GPTBot pour collecter des données afin d’améliorer ses modèles linguistiques. Bien que la société d’IA ait promis que les contenus payants seraient exclus des sites web, plusieurs sites d’information de premier plan, dont CNN, Reuters et le New York Times, ont bloqué GPTBot. Leur nombre n’a cessé d’augmenter au cours des semaines suivantes.

Selon une étude de l’agence de marketing numérique Kirwan, 28 % des 50 principaux sites d’information dans le monde avaient bloqué au moins un robot d’indexation à la fin du mois dernier. En comparaison régionale, la situation est un peu différente. Par exemple, 24 %, soit douze des cinquante plus grands sites d’actualités aux États-Unis, ont bloqué au moins un robot d’indexation, ce qui est beaucoup plus qu’au Royaume-Uni, où seuls trois des 21 principaux sites ont fait de même. En Inde, le pourcentage de nouveaux sites de premier plan qui refusent de céder leurs données aux entreprises d’IA est beaucoup plus élevé, un tiers d’entre eux ayant bloqué au moins un robot d’exploration d’IA.

Un site d’information sur cinq a bloqué GPTBot
Bien que la plupart des 50 principaux sites d’information n’aient pas encore pris de mesures de blocage, l’étude montre que GPTBot est le premier choix de ceux qui l’ont fait. Les statistiques montrent que l’invention d’OpenAI a été bloquée 22 % du temps sur les 50 principaux sites d’information, avec Bloomberg, Reuters, Business Insider, le Washington Post, le New York Times et CNN en tête de liste.

Le CCBot a été bloqué environ deux fois moins souvent que le GPTBot, avec une part de 10 % sur les 50 principaux sites d’information. L’enquête a également montré que ChatGPT n’avait été bloqué que par un seul site web, celui du Washington Post, tout comme AnthropicAI, qui n’a été bloqué que par le site britannique NewsNow.

Dans l’ensemble, le New York Times, le Washington Post, Reuters et NewsNow sont les premiers à bloquer l’accès de leurs contenus aux robots d’IA, chaque site d’information bloquant deux robots d’IA.

Victoria Marchand

"Signé Victoria" Réagissez à ce post en laissant vos commentaires ! Cominmag.ch c'est aussi Cominmag Live et en podcast

Articles similaires

Bouton retour en haut de la page
Fermer

Rester informé

cominmag.ch
Daily Newsletter